#Hugging Face | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#Hugging Face

Karpathy與Hugging Face創辦人最新研判：所有軟體都要重寫，AI原生語言將至

Hugging Face聯合創始人Thomas Wolf最新思考：在AI統治的軟體世界裡，底層架構正在發生位移，Andrej Karpathy大神也認可這種觀點，很有可能，我們最終會將有史以來編寫的大部分軟體重寫很多次，至少這是一個有趣的時刻軟體供應鏈縮減，單體架構迴歸當重寫程式碼和理解大型陌生程式碼庫變得廉價時，依賴深度依賴樹的動力就會崩潰。與其花費無數個夜晚鑽研陌生的程式碼庫，不如直接要求程式碼智能體從頭編寫，或從其他庫中提取相關部分，這要容易得多。減少依賴的理由非常充分：能夠縮小針對供應鏈威脅的攻擊面，減少打包軟體的體積，提升效能，並加快啟動時間。利用大語言模型不知疲倦的耐力，從裸機層面一直向上編碼整個應用程式的夢想正在變得現實。林迪效應終結林迪效應認為，存在已久的事物之所以存在是有充分理由的，並且可能會繼續存在。這與切斯特頓柵欄理論有關：在移除某物之前，應先理解其存在的原因，這意味著移除總是伴隨著成本。但在一個軟體可以從第一原理開發並被不知疲倦的智能體所理解的世界裡，這種邏輯變弱了。舊的程式碼庫可以被隨意探索；長期存在的軟體被替換的摩擦力大大降低。一個程式碼庫完全可以用一種新語言重寫。在人類早已放棄的情況下，遺留軟體仍可仔細研究更新。其中的隱患在於，未知的未知依然存在。 AI影響的真實程度將取決於測試、邊緣情況覆蓋和形式化驗證是否能實現全覆蓋。在AI主導的世界裡，形式化驗證不再是可選項，而是必選項。強類型語言的理由歷史上，程式語言的採用很大程度上是受人類心理和社會動態的驅動。一種語言的成功取決於混合因素：易學性、編寫正確性的簡單程度、社區的活躍與包容度（這決定了生態系統的增長速度），以及可證明的正確性、形式化驗證以及在動態與靜態檢查之間的平衡。隨著人為因素的減弱，這些動態將會轉變。對人類心理依賴的減少將有利於強類型、可形式化驗證或高效能的語言。這些語言通常對人類來說較難學習，但非常適合大語言模型，因為LLM在形式化驗證和強化學習環境中表現出色。預計這將重塑那些語言佔據主導地位。開源經濟的重構幾十年來，開源社群建立在人類透過共同編寫、學習和使用程式碼而產生的連結之上。在一個大部分程式碼由機器編寫，或許更重要的是機器閱讀的世界裡，這些激勵機制將開始瓦解。由AI共同建構庫和程式庫的社群可能會作為替代品出現，但這樣的社群將缺乏迄今為止推動開源發展的根本性人類動機。如果開源開發的未來變得基本沒有人參與，那麼AI模型的對齊將不僅僅是重要，而是決定性的。新語言的未來AI智能體在開發或採用新程式語言時，是否會面臨與人類相同的權衡？如表達式與簡單性、安全性與控制權、效能與抽象、編譯時間與運行時間、顯式與簡潔。目前尚不清楚。從長遠來看，創建新程式語言的理由可能會與過去由人類驅動的動機大相逕庭。很可能存在一種對大語言模型最優的程式語言，而且沒有理由假設它會像人類所趨同的語言。Andrej Karpathy的觀點補充Andrej Karpathy認為，對於程式語言和形式化方法來說，這一定是一個非常有趣的時刻，因為大語言模型完全改變了軟體的約束格局。這種跡像已經顯現，例如將C語言移植到Rust的勢頭正在上升，或者對升級COBOL等遺留程式碼庫的興趣日益濃厚。特別是，與從頭生成相比，大語言模型在翻譯方面表現得尤為出色，原因有二：一是原始程式碼庫充當了一種高度詳細的提示詞，二是它可以作為編寫具體測試的參考依據。即便如此，即使是Rust作為目標語言，對於大語言模型來說也遠非最優。什麼樣的語言才是最優的？是否仍保留了對人類的讓步？這些都是極其有趣的新問題和機會。 Karpathy預測，人類最終可能會將有史以來編寫的大部分軟體重寫很多次。 (AI寒武紀)

Hugging Face 特別發文：DeepSeek 時刻一周年，中國 AI 改變了什麼？

昨天，全球最大的 AI 開源社區 Hugging Face（抱抱臉）發佈了他們中國開源系列的首篇文章：“DeepSeek 時刻”一周年。圖：Hugging Face 的文章如果說 2023 年是“ChatGPT 時刻”，那麼在 Hugging Face 的眼中，2025 年，無疑是屬於中國開源 AI 的“DeepSeek 時刻”。這篇報告不僅復盤了過去這一年中國 AI 的“狂飆突進”，更揭示了一個讓無數開發者振奮的事實：攻守之勢，已經異也。我們一起來看看這篇有意思的復盤文章。01 為什麼是“DeepSeek 時刻”？把時鐘撥回到一年前，2025 年的 1 月。當時，杭州的一家 AI 公司——DeepSeek（深度求索），扔出了那個後來改變一切的 R1 模型。在 Hugging Face 看來，這不僅僅發了一個新模型，而是中國 AI 發展史上的一個分水嶺。因為資料記錄下了一個歷史性的轉折點：這是中國開源模型，第一次真正殺進全球主流排行榜。而且這一進就收不住了。R1 迅速超越了 Llama 等西方頂流，成為了 Hugging Face 歷史上獲贊最多的模型。看看現在的榜單，曾經被美國開發者的名字霸屏的時代，終結了。圖：獲贊最多的模型在隨後的一整年裡，R1 更是成了全球 AI 界的“度量衡”：任何新模型發佈，都要拿來跟它比一比。它不再是追隨者，它成了標竿。報告中有一段非常精彩的論述：“R1 的發佈給了中國 AI 發展最寶貴的東西：時間。”在此之前，很多企業在“開源還是閉源”之間搖擺不定，受困於算力瓶頸。但 R1 的出現，用事實證明了：即便算力有限，只要路線對、迭代快，中國依然可以彎道超車。Hugging Face 總結了 R1 掃清的三個“障礙”：技術門檻碎了：公開推理路徑，把“推理”變成了人人可用的工程模組。應用門檻碎了： MIT 協議一出，直接商用，大家不再捲跑分，開始卷落地。心理門檻碎了（這點最關鍵）：報告用了 "Psychological" 這個詞。翻譯成大白話就是：中國開發者的“心魔”破了。我們不再問“能不能做？”，而是開始問“怎麼做得比別人好？”。我們中國人說，破山中賊易，破心中賊難。這種自信的回歸，才是“DeepSeek 時刻”真正的靈魂。02 被“倒逼”出來的黃金時代R1 點了一把火，隨後的 2025 年，中國 AI 界發生的事情，被 Hugging Face 稱為“有機的生態爆發”。這篇報告不僅誇了 DeepSeek，更點名表揚了百度、騰訊、字節、阿里等大廠。資料顯示，百度在 HF 上的發佈數量從 0 飆升到 100+，其他大廠也是數倍增長。（阿里、字節發佈數量翻了 8～9 倍）圖：HF 統計的中國公司的模型倉庫增長情況而 Kimi K2 的發佈，更是被譽為“另一個 DeepSeek 時刻”。更狠的還在後面。這些模型發出來不是當擺設的。報告顯示，在所有發佈不滿一年的新模型中，中國模型的總下載量已經超越了包括美國在內的任何其他國家。圖：中國模型的下載數量超過了任何其他國家智譜 AI（Zhipu AI）的 GLM、阿里的 Qwen，已經不滿足於發發權重了，他們開始建構完整的工程系統和介面。每周 Hugging Face 上“最受歡迎”和“下載最多”的榜單裡，中國模型幾乎成了常駐嘉賓。圖：中國開源模型熱力圖這裡有一句非常有意思的評論：“中國玩家們的協同，不是靠簽協議，而是靠‘制約’。”什麼意思？就是說在同樣的算力限制、合規要求和成本壓力下，大家“被迫”默契地走上了同一條高效的工程化道路。這聽起來有點“內卷”的苦澀，但資料證明：這種高強度的競爭，捲出了一個生命力極強、甚至開始反超美國的生態。我們不僅在發模型，更是在定義標準。03 全球反轉：現在，輪到西方“找替補”了文章最讓我感到魔幻現實主義的部分，是關於全球反應的描述。曾幾何時，我們是西方的學徒。但“DeepSeek 時刻”一年後的今天，世界變了。這種變化，連大洋彼岸的巨頭都坐不住了。就在上周，微軟（Microsoft）發佈了《2025 全球 AI 普及報告》，將 DeepSeek 的崛起列為 2025 年“最意想不到的發展之一”。微軟在這份報告裡揭示的資料，非常讓人意外：在非洲：DeepSeek 的使用率是其他地區的 2 到 4 倍。原因很簡單：免費、開源。它沒有昂貴的訂閱費，也不需要信用卡，徹底打破了矽谷設下的“付費牆”。在被西方忽略的角落：資料顯示，DeepSeek 在國內份額高達 89%，在白俄羅斯達到 56%，在古巴也有 49%。圖：DeepSeek 全球市佔率分佈微軟不得不承認一個扎心的事實：AI 的普及不僅僅取決於模型有多強，更取決於誰能用得起。這種“農村包圍城市”的勝利，讓西方開發者徹底破防。Hugging Face 報告指出，現在許多美國初創公司已經默認使用中國開發的模型作為基座。甚至出現了“套殼”反轉：美國發佈的 Cogito v2.1（號稱領先的開放權重模型），其實就是 DeepSeek-V3 的微調版。甚至有一個美國的項目叫 ATOM (American Truly Open Model)，他們的立項動機竟然是：“看到 DeepSeek 和中國模型太強了，我們必須奮起直追”。看到這裡，我真的忍不住想笑。曾幾何時，這是我們的台詞啊。04 暴風雨前的寧靜：DeepSeek 的“瘋狂一月”如果你以為 DeepSeek 在發完 R1 後就躺在功勞簿上睡大覺，那你就大錯特錯了。就在 DeepSeek 時刻一周年即將到來的這段時間（從元旦開始），這家公司的一系列“反常”動作，讓敏銳的技術圈嗅到了一絲暴風雨將至的味道。動作一：清理“技術債”，R1 論文一夜暴漲 60 頁就在不久前，有開發者發現 DeepSeek 悄悄更新了那一年前發佈的 R1 論文。這一更不得了，頁數直接從 22 頁暴漲到了 86 頁！他們把過去這一年裡所有的訓練細節、失敗嘗試、甚至那些不為人知的“坑”，全部毫無保留地補全了。這在行業裡通常只有一個解釋：這一頁翻篇了，我們要去搞更牛的東西了。動作二：底層架構大換血緊接著，DeepSeek 密集甩出了兩篇重磅新論文：《mHC》和《Engram》。看不懂沒關係，你只需要知道這兩篇論文想幹什麼——他們在試圖重寫大模型記憶和思考的方式。特別是 Engram，它想讓模型擁有“即時查閱記憶”的能力。這意味著，未來的模型可能更小、更快，但更聰明。動作三：GitHub 裡的神秘程式碼“MODEL1”昨晚又引起大家關注的，是眼尖的網友在 DeepSeek 更新的 GitHub 程式碼庫裡，扒出了一個疑似新模型的代號——“MODEL1”。圖：DeepSeek 程式碼庫洩露的 MODEL 1這個不起眼的變數名，現在已經被各路大神盤包漿了。大家都在猜，這會不會就是傳說中即將要在春節期間發佈的 DeepSeek V4？“DeepSeek 的每一次沉默，通常都意味著一次更大的爆發。”種種跡象表明，2026 年的春節，大機率又不會平靜了。寫在最後Hugging Face 這篇報告的結尾，預測 2026 年將會有更猛烈的爆發，尤其是在架構和硬體的選擇上，中國公司將繼續通過開源生態施加影響。回顧這魔幻的一年，從 DeepSeek R1 的驚天一雷，到百模大戰的全面開源，再到如今 Hugging Face 官方以“DeepSeek Moment”為題來記錄歷史。這不僅僅是技術的勝利，更是開源精神在東方的勝利。我們不再是跟隨者，我們已經坐在了牌桌的主位。2026，好戲才剛剛開始。 (AI范兒)

這一次，輪到美國人抄中國作業了！DeepSeek 單槍匹馬“屠榜”，矽谷還有護城河嗎？

“如果說OpenAI的o1是一座圍牆高聳的金庫，那麼DeepSeek剛剛做的，就是直接把金庫的大門炸開，然後對著全世界喊：‘兄弟們，進來隨便拿！’”就在幾個小時前，Hugging Face 上悄悄出現了一個代號為 DeepSeek-Math-V2 的倉庫。沒有發佈會，沒有漫長的預熱，甚至連個像樣的宣傳片都沒有。但懂行的開發者看到那個 README 文件時，手都抖了。國產之光 DeepSeek，又來“整頓職場”了。這次他們帶來的，是首個開放原始碼的、達到IMO（國際奧數）金牌水平的推理模型！一、這一波，到底有多炸？先給大家看一張圖，這是 DeepSeek-Math-V2 在 Hugging Face 上的“成績單”：圖註：這根高高聳立的藍綠色柱子，就是DeepSeekMath-V2。在MATH benchmark上，它不僅碾壓了所有開源模型，甚至把不少閉源的“付費大哥”按在地上摩擦。這不僅僅是分數的勝利，這是“智商”的碾壓。 Hugging Face 的文件裡寫得清清楚楚：這個模型是基於 DeepSeek-V3-Base 底座，通過大規模的強化學習（RL）訓練出來的。這就好比，以前的AI是“背題庫”考上的大學；現在的 DeepSeek-Math-V2，是自己在題海裡“悟道”，練成了絕世武功。二、核心黑科技：它不再是“鸚鵡”，它學會了“慢思考”點開 Hugging Face 的檔案列表，你會發現這個模型最大的特點：它變“囉嗦”了，但也變強了。以前我們問AI：“9.11和9.9誰大？” 普通AI可能直接瞎蒙：“9.11大。” 但 DeepSeek-Math-V2 會在後台開啟“上帝視角”：自我質疑：它會先想，“使用者是不是在考我小數點的陷阱？”多步驗證：它會拆解問題，一步步推導，甚至自己寫程式碼驗證結果。最終輸出：確認無誤後，才告訴你正確答案。這種**CoT（思維鏈）**能力，以前是 OpenAI o1 系列的獨門絕技。現在？DeepSeek 把它開源了。這意味著，任何一個大學生、研究員，甚至是你家隔壁寫程式碼的小哥，都能在自己的電腦上（視訊記憶體夠的話），運行一個擁有“博士級”數學大腦的AI。三、為什麼說它是“Google殺手”？在 DeepSeek-Math-V2 發佈之前，Google的 Gemini 團隊一直引以為傲的就是他們的數學推理能力。但 DeepSeek 用一種名為 GRPO（Group Relative Policy Optimization）的強化學習演算法，給Google上了一課。簡單來說，DeepSeek 沒有像Google那樣堆砌無窮無盡的算力資源。他們更聰明。他們讓模型在沒有人類老師判卷的情況下，自己給自己出題，自己給自己打分。這種“左右互搏”的訓練方式，讓模型在數學推導、程式碼程式設計這種“非黑即白”的領域，進化速度快得嚇人。Hugging Face 上的資料顯示：在競賽級數學題上，DeepSeek-Math-V2 的表現已經足以拿到 IMO（國際奧數）的金牌。四、開源，是給世界最好的禮物阿文我在翻閱 Hugging Face 的評論區時，看到一位外國開發者留下了這樣一句話："DeepSeek is saving the open-source community single-handedly."(DeepSeek 正在單槍匹馬拯救開源社區。)為什麼我們這麼激動？因為 OpenAI 越來越封閉，Google越來越商業化。只有 DeepSeek，像一個俠客。它證明了：不需要兆參數，不需要千億美金，只要演算法足夠精妙，開源一樣可以戰勝閉源！五、下載連結就在那，誰敢來戰？DeepSeek-Math-V2 的連結現在就掛在 Hugging Face 上。它就像一把插在石頭裡的“石中劍”。誰能拔出它，誰就能擁有挑戰巨頭的力量。對於我們普通人來說，這不僅僅是一個新模型。這是國產AI向世界證明：我們不只是會做套殼APP，我們在最硬核的底層演算法上，一樣能站在世界之巔。 (阿文學AI)

阿里開源超強多模態模型！70億參數干翻Google，看一眼秒出食譜，嘮嗑更像人，還能視訊聊天

更強大的模型還在路上。智東西3月27日報導，今天，阿里巴巴通義千問發佈了新一代端到端多模態旗艦模型Qwen2.5-Omni-7B。這一模型能夠即時處理文字、圖像、音訊和視訊等多種輸入形式，並通過即時流式響應同時生成文字與自然語音合成輸出。該模型現已在Hugging Face、魔搭、DashScope和GitHub上開源，採用寬鬆的Apache 2.0開源協議，模型論文也全面開源，詳解了背後的技術細節。同時，使用者可以在Demo中體驗互動功能，或是在Qwen Chat中像打電話或視訊通話一樣與Qwen聊天。千問團隊稱，Qwen2.5-Omni採用了全新的Thinker-Talker架構，支援跨模態理解和流式文字、語音響應，支援分塊輸入和即時輸出。在與同等規模的模型進行基準測試比較時，Qwen2.5-Omni表現出一定優勢，並超過了Gemini 1.5 Pro和GPT-4o-mini等閉源模型。Qwen2.5-Omni在音訊能力上優於類似大小的Qwen2-Audio，並與Qwen2.5-VL-7B保持同等水平。在權威多模態理解測試OmniBench上，Qwen2.5-Omni獲得了SOTA表現，超越Gemini 1.5 Pro，提升幅度達30.8%。Qwen2.5-Omni在端到端語音指令跟隨方面表現出與文字輸入處理類似的效果，在MMLU通用知識理解和GSM8K數學推理等基準測試獲得了不錯的成績。開源地址：https://huggingface.co/Qwen/Qwen2.5-Omni-7B論文地址：https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdfDemo體驗：https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo4月1-2日，智東西聯合主辦的2025中國生成式AI大會將舉行。50+位嘉賓將在開幕式、GenAI應用論壇、大模型峰會、DeepSeek R1與推理模型技術研討會、AI智能體技術研討會、具身智能大模型技術研討會帶來報告、演講、對話和討論。掃碼申請主會場觀眾票或購票參會。01.全模態即時互動，看一眼食材秒出食譜在部落格文章中，千問團隊放出了多個Qwen2.5-Omni在現實世界多模態場景中的測試案例。目前，Qwen2.5-Omni共有Cherry和Ethan兩種語音可供選擇。Cherry音色對應的是女聲，Ethan音色對應的是男聲。從聽感來看，這兩種語音真實、自然，會在說話時加入停頓、語氣詞等內容。Qwen2.5-Omni能在場景中即時處理、分析多模態內容。例如，在下廚時，可以拿著食材詢問通義應該如何處理，或是環視廚房裡的調料，看究竟應該用那些調料，可謂是廚房小白福音了。Qwen2.5-Omni能聽懂音樂，判斷歌曲是什麼風格，採用了何種音調，並提出對原創歌曲歌詞、節奏等方面的意見。在繪畫時，Qwen2.5-Omni可以根據草圖判斷繪畫內容，還能給出畫面的構圖建議。此外，Qwen2.5-Omni還可以在戶外場景判斷天氣、在學習場景中輔助解題、論文閱讀，具備較好的通用多模態能力。02.自研端到端架構，獲得多模態理解基準測試SOTAQwen2.5-Omni採用Thinker-Talker雙核架構。Thinker模組如同大腦，負責處理文字、音訊、視訊等多模態輸入，生成高層語義表徵及對應文字內容。Talker模組則類似發聲器官，以流式方式接收Thinker即時輸出的語義表徵與文字，流暢合成離散語音單元。Thinker基於Transformer解碼器架構，融合音訊/圖像編碼器進行特徵提取；Talker則採用雙軌自回歸Transformer解碼器設計，在訓練和推理過程中直接接收來自Thinker的高維表徵，並共享全部歷史上下文資訊，形成端到端的統一模型架構。千問團隊還提出了一種新的位置編碼技術，稱為TMRoPE（Time-aligned Multimodal RoPE），通過時間軸對齊實現視訊與音訊輸入的同步。在多項基準測試中，Qwen2.5-Omni在包括圖像，音訊，音視訊等各種模態下的表現都優於類似大小的單模態模型以及閉源模型。值得一提的是，在多模態理解基準測試OmniBench上，Qwen2.5-Omni達到了SOTA表現，其得分為56.13%，超過第2名Gemini 1.5 Pro的42.91%。在視訊到文字任務上，Qwen2.5-Omni也超過了原本的開源SOTA模型和GPT-4o-mini。在其他基準測試中，如語音識別（Common Voice）、翻譯（CoVoST2）、音訊理解（MMAU）、圖像推理（MMMU、MMStar）、視訊理解（MVBench）以及語音生成（Seed-tts-eval和主觀自然聽感），Qwen2.5-Omni的成績均超過了Qwen家族的其他單模態模型。03.結語：更強大的Qwen2.5-Omni還在路上Qwen2.5-Omni-7B一經發佈便獲得海內外使用者的關注，有不少網友已經開啟了催更模式，比如增加對小語種的支援、開發千問海外App，或是與智能眼鏡等硬體結合。據千問團隊介紹，未來，他們還會發佈能力更強、速度更快的模型，並擴展其多模態輸出能力，涵蓋圖像、視訊和音樂等多種形式。 (智東西)

剛剛，DeepSeek 悄悄更新！程式設計能力大幅提升，還有這些亮點

沒有絲毫預告，DeepSeek 今晚在 Hugging Face上放出了最新的 DeepSeek-V3-0324 模型。這個新模型參數達 685B，目前在官方網站、APP 和小程序上已經可以體驗（關閉深度思考）。這並不是之前呼聲很高的 R2 ，而是一次小版本更新，但依然有不少亮點，甚至在某些能力已經與 Claude 3.7 Sonnet 相當接近。💡 從網友反饋的實測效果來看，V3-0324 有這些提升：·編碼能力已經接近 Claude3.7 了，比之前的老版本 v3 能力要強。·提升幅度大約與 Sonnet 3.5 到 Sonnet 3.6 的升級相當，甚至還要大一點。·與 R1 相比，V3-0324 在生成前端程式碼方面有了明顯改進。·數學能力也有提升，能像推理模型一樣能夠解題。當然，V3-0324 也繼續開源，而且是 MIT 開源許可，意味著比上一版更加開放了。更多體驗細節，也歡迎大家在留言區與我們分享。今晚的 V3 小版本更新已經有不少亮點，也更讓人期待即將到來的 R2。APPSO 也會持續關注，第一時間帶來最新動態。 (APPSO)

Hugging Face進軍機器人，前特斯拉Optimus科學家帶隊｜甲子光年

機器人太火了，連專注軟體領域的Hugging Face也入局了！美國時間5月6日，Hugging Face的機器人專案負責人雷米·卡德內（Remi Cadene）宣布推出LeRobot開源程式碼庫，並形容它對於機器人的意義就如同「Transformer架構之於NLP（自然語言處理）」。 Remi Cadene表示：“人工智慧發展的下一步是將其應用於我們的物理世界。因此，我們正在圍繞AI機器人建立社區驅動的努力，並且它向所有人開放！” Remi Cadene的X推文

美國最火的十家AI創業公司，除了OpenAI，你還知道有那些？

ChatGPT出現之後，圍繞著生成式AI的投資狂歡也開始了，從OpenAI到Midjourney再到cohere，眾多AI獨角獸接連湧現。彭博行業研究（Bloomberg Intelligence）在最近的報告中預計，ChatGPT將給生成式AI市場帶來為期十年的繁榮，市場規模將以42%的速度擴張。報告預計，九年後，也就是2032年，全球生成式AI市場規模將達到1.3萬億美元，是去年400億美元市場規模的32.5倍。有越來越多的應用爆發了，每週都有新爆款，在熱鬧的AI賽道背後，究竟哪10家公司最值得關注？這10家公司最新的研究成果有哪些？